Il n'a fallu que quarante minutes d'infection d'une bibliothèque Python pour compromettre Mercor, la startup à 10 milliards de dollars qui produit les données d'entraînement de Meta, OpenAI, Anthropic et Google. Quatre téraoctets présumés volés, des méthodologies d'entraînement propriétaires potentiellement dans la nature, et une industrie qui découvre qu'elle a mutualisé ses secrets les mieux gardés chez un même prestataire.

Le groupe TeamPCP a publié le 27 mars dernier deux versions piégées de LiteLLM directement sur PyPI, le dépôt officiel des paquets Python. Pour y parvenir, ses membres avaient préalablement compromis Trivy, un scanner de sécurité open source, afin de voler les identifiants de publication d'un mainteneur de la bibliothèque. LiteLLM compte 97 millions de téléchargements mensuels et une présence dans 36 % des environnements cloud. Les deux versions malveillantes ont été identifiées et retirées en quarante minutes, mais le mal était fait. Et c'est Mercor qui paye le plus lourd tribut de cette malveillance.
Meta a aussitôt suspendu toute collaboration avec la startup, sans calendrier de reprise. OpenAI enquête mais continue ses projets. Anthropic n'a pas commenté.
Lapsus$ a revendiqué l'attaque sur le dark web et proposé à la vente 939 Go de code source, 211 Go de base de données utilisateurs et environ trois téraoctets d'enregistrements vidéo d'entretiens. Le 1er avril, une plainte en recours collectif a été déposée devant un tribunal fédéral californien au nom de plus de 40 000 sous-traitants et clients actuels ou anciens de Mercor.
Les données d'entraînement des IA, produites par des humains sous contrat de silence
Mercor recrute des avocats, des médecins, des ingénieurs et des journalistes pour produire des données d'entraînement sur mesure pour ses clients. Chaque projet porte un nom de code interne. « Chordus », par exemple, apprenait aux modèles de Meta à croiser plusieurs sources web pour vérifier leurs réponses. Depuis la suspension, les travailleurs affectés à ces projets ne peuvent plus enregistrer leurs heures, sans explication de Mercor sur la raison du gel.
Les laboratoires d'IA redoutent davantage la divulgation des protocoles d'étiquetage, des critères de sélection des données et des stratégies d'entraînement que la simple exposition de données personnelles.
Contrairement à un jeu de données brutes, une méthodologie d'entraînement ne se reproduit pas à l'identique. Pour Allan Liska, analyste chez Recorded Future spécialisé dans le ransomware, le groupe TeamPCP est « clairement motivé financièrement », mais il note une dimension géopolitique peu lisible. Le groupe a diffusé un wiper baptisé « CanisterWorm » visant spécifiquement des serveurs cloud configurés sur le fuseau horaire iranien.

ChatGPT, Claude, Gemini : les recettes d'entraînement potentiellement dans la nature
Mercor travaille simultanément pour Meta, OpenAI, Anthropic et Google. Autrement dit, les données d'entraînement de Llama, de ChatGPT, de Claude et de Gemini transitent toutes, à des degrés divers, par le même prestataire. Une seule brèche suffit donc à exposer simultanément les recettes de quatre concurrents directs, y compris potentiellement à des laboratoires chinois, selon Wired.
Logiquement, les laboratoires ont réagit. OpenAI enquête mais n'a pas suspendu ses projets avec Mercor. Anthropic n'a pas commenté. Google évalue l'étendue de l'incident. Meta, elle, a tout arrêté, sans date de reprise ni déclaration publique. Or Meta a signé un contrat de 27 milliards de dollars avec Nebius Group en mars 2026 pour son infrastructure d'IA et prévoit entre 115 et 135 milliards de dépenses d'investissement sur l'année. On ne gèle pas un fournisseur de données au cœur d'une telle mécanique par simple précaution.
Les chasseurs de menaces de vx-underground estiment que TeamPCP a exfiltré des données de 500 000 machines au total lors de cette vague d'attaques. Mercor n'est que la première victime à l'avoir confirmé publiquement. TeamPCP a annoncé son intention de s'associer à des groupes d'extorsion pour monétiser les données volées auprès de chaque entreprise touchée, une à une. Un scénario qui rappelle la campagne MOVEit de 2023, durant laquelle le groupe Cl0p avait compromis près de 100 millions de personnes en exploitant un seul outil partagé.
Source : The Next Web